Analyse de Données

Introduction

Nous allons étudier un jeu de données immobilières. Il s’agit des ventes de logements à King County, compté contenant la ville de Seattle aux États-Unis. Ce jeu de donnée a été utilisé par un cours Coursera, il semblait tout à fait convenir à une introduction à diverses techniques de l’analyse et traitement de données, sachant l’extreme diversité des méthodes à utiliser, même pour des données modestes. Parmi les avantages de cet ensemble de données, déjà mise en forme, pas d’imputation de données nécessaires, peu de facteurs, une application possible d’une régression linéaire sans être obligé d’utiliser des modèles complexes.

L’objectif de ce projet est d’analyser l’ensemble de donnée avant de faire une modélisation par régression linéaire, cette analyse est une étape indispensable pour développer une intuition sur l’ensemble de données, et donc la création de modèle.

Variables du jeu de données

Les données correspondent aux logements vendus entre mai 2014 et mai 2015. Un logement est constitué d’une surface habitable et d’un terrain. À chacun de ces logements sont associés les 21 variables suivantes:

id
Identifiant du logement (ignoré pour l’analyse)
date
Date de vente du logement [Date]
price
Prix de vente [Continu]
bedrooms
Nombre de chambres [Discret]
bathrooms
Ratio entre le nombre de salle de bain et de chambre
sqft-living
Surface du logement (somme du sous-sol et étages supérieurs) [Continu]
sqft-above
Surface du logement située au dessus du sol [Continu]
sqft-basement
Surface du logement au niveau du sous-sol [Continu]
sqft-lot
Surface du terrain [Continu]
floors
Nombre d’étages dans la maison [Discret]
waterfront
Vue sur les quais [Binaire]
view
Nombre de fois le logement a été visité [Discret]
condition
Appréciation de l’état du logement [Factoriel]
grade
Évaluation de la qualité de construction du logement [Factoriel]
yr-built
Année de construction [Date]
yr-renovated
Année de rénovation [Date]
zipcode
Zipcode
lat
Lattitude [Coordonnées]
long
Longitude [Coordonnées]
sqft-living2015
Surface du logement en 2015 [Continu]
sqft-lot2015
Surface du terrain en 2015 [Continu]

Petite précision sur le facteur grade. Ce facteur est directement issu de l’administration de King County, en particulier pour la collecte d’impots. Elle établit une classification de 1 à 13 des logements de King County en fonction de la finition du logement. Cela permet d’avoir une vague idée sur la valeur du logement en tant qu’édifice. Il y a donc un ordre entre les niveaux de ce facteur. Néanmoins, ce facteur ne doit pas être pris comme une valeur entièrement objective, car il peut s’agir d’une estimation.

  • [1-3] Ne convient presque pas aux standard de construction. A priori une cabane.
  • [4] Généralement un édifice de mauvaise qualité ayant vielli. Ne rentre pas dans les standards.
  • [5] Peu cher et peu travaillé. Petit et simple.
  • [6] Plus petite catégorie qui est aux normes. Matériaux de mauvaise qualité, simplicité.
  • [7] Construction normale que l’on rencontre sur un terrain habité.
  • [8] Construction un peu mieux que la moyenne. Meilleurs matériaux dans les finitions.
  • [9] Meilleure architecture, de bonnes conception et qualité d’éxécution.
  • [10] Les habitations de ce type sont celles de qualité supérieure, meilleur finition, plus spacieuse et un meilleur agencement des pièces
  • [11] Conception personnalisée et finitions de qualité supérieure, avec ajout de mobilier en bois massif, de mobiliers fixatif dans les salles de bains et agréments de luxe.
  • [12] Conception personnalisée et excellents éxécutants. Tous les matériaux sont de qualités supérieurs, et toutes les commodités sont présentes
  • [13] Généralement, conception et construction personalisées. Proche du niveau du manoir. Important travail pour les cuisines. Grande quantité de plancher en bois et de marbre. Grandes entrées.

Restriction à Mercer Island

L’île Mercer fait partie des 100 unités territoriales les plus riches de l’état de Washington. Elle est reliée à la terre qui l’entoure par une voie routière la traversant. On peut l’étudier comme un microsome étant donné le lac qui la sépare de la terre. Comparé à Vashon Island qui ne possède pas de liason terrestre, elle est dynamique et urbanisée.Au sein du jeu de données complet, on peut noter de très grandes disparités territoriales qui ont un impact direct sur le type d’habitation et leurs valeurs. En choisissant un ensemble géographiquement homogène et bien plus petit, on espère pouvoir avoir des conclusions plus précises et faciles à découvrir. Cela doit être vu comme une première étape à l’analyse du jeu de données complet, que l’on ne peut pas mener à cause de contraintes temporelles et manque d’expérience.

Sommaire

Variables continues

Minimum 1er Quartile Médiane Moyenne 3e Quartile Maximum
price 500000.000 822000.00000 993750.0000 1.194230e+06 1385500.00000 5300000.0000
bathrooms 1.000 2.25000 2.5000 2.716312e+00 3.25000 6.7500
sqft_living 820.000 2260.00000 3020.0000 3.106833e+03 3650.00000 9640.0000
sqft_lot 3700.000 9870.25000 11951.5000 1.370446e+04 15740.50000 92347.0000
sqft_above 770.000 1692.50000 2265.0000 2.474330e+03 3180.00000 5770.0000
sqft_basement 0.000 0.00000 535.0000 6.325035e+02 1100.00000 4820.0000
lat 47.526 47.54195 47.5625 4.755985e+01 47.57597 47.5934
long -122.251 -122.23200 -122.2250 -1.222256e+02 -122.21600 -122.2040
sqft_living15 1590.000 2390.00000 2875.0000 2.898745e+03 3380.00000 4620.0000
sqft_lot15 3776.000 10083.00000 11664.5000 1.280128e+04 15290.75000 36563.0000

Variables factorielles ou discrètes

Étages

Valeurs 1 1.5 2 2.5 3
Décompte 138 14 122 5 3

bedrooms

Valeurs 2 3 4 5 6 7
Décompte 4 74 126 68 8 2

view

Valeurs 0 1 2 3 4
Décompte 186 23 33 28 12

grade

Valeurs 1 3 4 5 6 7 8 9 10 11 12 13
Décompte 0 0 0 0 5 31 74 73 63 31 5 0

condition

Valeurs 1 2 3 4 5
Décompte 0 2 99 138 43

waterfront

Valeurs 0 1
Décompte 270 12

Variables temporelles

Sans valeurs manquantes

Minimum 1er Quartile Médiane Moyenne 3e Quartile Maximum
yr_built 1916-01-01 1960-01-01 1968-01-01 1971-06-22 1980-01-01 2015-01-01
date 2014-05-06 2014-06-30 2014-09-22 2014-10-18 2015-02-23 2015-05-12

Avec valeurs manquantes

Minimum 1er Quartile Médiane Moyenne 3e Quartile Maximum Valeurs Manquantes
yr_renovated 1970-01-01 1990-01-01 2000-01-01 1996-01-01 2005-01-01 2012-01-01 249

Répartition géographique

Inégalités

Valeur

Surface habitée

Surface terrain

Corrélation linéaire

Réaménagements

Surface Habitable

Surface du terrain

Lien entre aménagement de la surface intérieure et extérieure

Lien entre aménagement de la surface intérieure et surface initiale du terrain

Harmonisation de la surface intérieure et la surface extérieure

Variation inertie par axe
sqft_living sqft_lot
Avant 2015 3.93e+08 1.46e+10
2015 1.19e+08 4.23e+09

Impact des caractéristiques du logement sur le prix

Surface habitable

Surface du terrain

Utilitaires

Salles de bain

Salles à coucher

Audit

Grade

Condition

Temps

Année de construction

Année de rénovation

Date de vente

Réaménagements

Surface habitable

Surface du terrain

Une valeur anormalement grande a été retiré du premier graphe en raison d’une valeur de \(sqft\_lot\) très éloignée du nuage (supérieur à 75000).

Liens entre taille du logement et caractéristiques

Surface habitée

Chambre à coucher

Grade

Condition

Surface du terrain

Chambes à coucher

Grade

Condition

Lien entre année de rénovation et année de construction

Autres corrélations

Chambres à coucher et salles de bain

Analyse en Composantes Principales sur les variables continues

Projection des variables sur le plan d’inertie maximum

Projection des élements sur le plan d’inertie maximum

Autres

## 
## Call:
## lm(formula = log(price) ~ sqft_living + sqft_living15 + sqft_basement + 
##     bathrooms + waterfront + view, data = M)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.77880 -0.10175  0.00639  0.11019  0.39118 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    1.291e+01  5.857e-02 220.497  < 2e-16 ***
## sqft_living    2.020e-04  1.942e-05  10.402  < 2e-16 ***
## sqft_living15  6.044e-05  2.220e-05   2.723  0.00688 ** 
## sqft_basement -1.263e-04  1.921e-05  -6.571 2.50e-10 ***
## bathrooms      7.021e-02  2.192e-02   3.203  0.00152 ** 
## waterfront1    4.224e-01  6.048e-02   6.984 2.16e-11 ***
## view           7.244e-02  1.243e-02   5.830 1.55e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1748 on 275 degrees of freedom
## Multiple R-squared:  0.8143, Adjusted R-squared:  0.8103 
## F-statistic:   201 on 6 and 275 DF,  p-value: < 2.2e-16

## 
## Call:
## lm(formula = log(price) ~ sqft_living + sqft_living15 + sqft_basement + 
##     bathrooms + waterfront + view, data = M %>% filter(!outliers))
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.36680 -0.10138  0.00095  0.10020  0.38318 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    1.290e+01  5.202e-02 248.023  < 2e-16 ***
## sqft_living    2.149e-04  1.735e-05  12.389  < 2e-16 ***
## sqft_living15  4.867e-05  1.985e-05   2.452   0.0148 *  
## sqft_basement -1.296e-04  1.720e-05  -7.536 7.33e-13 ***
## bathrooms      7.784e-02  1.962e-02   3.967 9.32e-05 ***
## waterfront1    3.998e-01  5.369e-02   7.446 1.30e-12 ***
## view           7.231e-02  1.101e-02   6.568 2.61e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1546 on 270 degrees of freedom
## Multiple R-squared:  0.8555, Adjusted R-squared:  0.8523 
## F-statistic: 266.5 on 6 and 270 DF,  p-value: < 2.2e-16
## 
## Call:
## lm(formula = log(price) ~ sqft_living + sqft_living15 + sqft_basement + 
##     bathrooms + waterfront + view + yr_built, data = M %>% filter(!outliers))
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.37175 -0.09941  0.00626  0.10309  0.38254 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    1.297e+01  5.654e-02 229.343  < 2e-16 ***
## sqft_living    1.998e-04  1.798e-05  11.111  < 2e-16 ***
## sqft_living15  4.924e-05  1.961e-05   2.511  0.01263 *  
## sqft_basement -1.141e-04  1.789e-05  -6.379 7.73e-10 ***
## bathrooms      6.505e-02  1.992e-02   3.265  0.00124 ** 
## waterfront1    4.378e-01  5.479e-02   7.991 3.95e-14 ***
## view           7.254e-02  1.088e-02   6.669 1.46e-10 ***
## yr_built       5.361e-06  1.935e-06   2.770  0.00599 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1527 on 269 degrees of freedom
## Multiple R-squared:  0.8595, Adjusted R-squared:  0.8559 
## F-statistic: 235.1 on 7 and 269 DF,  p-value: < 2.2e-16

Louie l’orang-outan